Notes on MF data meeting and the 95th percentile ref:
Lise:
Type station dans le fichier excel
type stations.xls:
- 0 - Stations synoptiques RADOME-RESOME. Acquisition en temps réel, expertise à J+1
- 1 - Stations RADOME-RESOME. Acquisition en temps réel, expertise à J+1
- 2 - Stations automatiques non RADOME-RESOME. Acquisition en temps réel, expertise à J+1
- 3 - Stations automatiques, acquisition temps réel, expertise temps différé.(à M+21j au maximum).
- 4 - Postes climatologiques manuels ou stations aves acquisition en temps différé, expertise en temps différé à mois échu (M+21j au maximum).
- 5 - Stations avec acquisition en temps réel ou différé, non expertisées ou avec expertise des données non garantie.
Réseau poste 50 à 59 60 à 62 70 à 73 82 à 89 sont non maitrisés par MF: Exclure (sauf pour modèle de température ou on prend toute l’info dispo)
Type de poste 3, 4 et 5 peuvent être exclus car stations bénévoles sans données horaires Attention néanmoins, dans les 4, certaines sont maintenant équipées d’automatismes qui permettent mesures horaires.
Pour les données d’Emilie, Lise a exclu les stations non automatiques (ie. 50 à 59, 60 à 62, 70 à 73 , 82 à 89, et 3, 4, 5??? )
Ian:
pour le modèle Ta moyenne j’inclus tous les stations qui mesurent la temperature avec un pas horaire ou plus fin. J’identifie ces stations par la presence d’un valeur “tm” = temperature moyenne sous abri (24 observations). Il me semble que cela inclut tous les stations “automatiques non RADOME-RESOME” (type 2).
Pour info, je n’utilise pas la typologie des stations car elle peut évoluer dans le temps mais nous n’avons pas d’informations sur ces evolutions - ainsi nous ne savons pas quel était la typologie d’une station au moment d’un mesure. Aussi, la typologie ne permet pas toujours de distinguer entre des stations automatiques et manuelles. Mais en general les stations avec une plus petite typologie sont considérées comme plus fiable
Ian pour les données>1999:
il y a deux etapes de preprocessing 1. parsing -> lit les donnees brutes (e.g. transforme les coordonnee lat/lon en texte vers des nombres) 2. cleaning -> enleve des observations qui * missing temperature data * outside study area * from unknown station * co-located with a higher-quality station * from co-located stations with temperature discrepancy > 2 degrees * from station with < 21 observations this month les fichiers finaux ont un suffix “-clean” e.g. “meteo_data_2018-clean.fst” contient le resultat de parsing + cleaning
Imported datasets:
Q1992_1999-région1.csv: NordQ1992_1999_région2.csv: Nord-estQ1992_1999_région3.fic: OuestQ1992_1999_région4.fic: Centre-EstQ1992_1999_région5.csv: Sud-OuestQ1992_1999_région6.csv: Sud-EstQ1992_1999_région7.csv: Ile de France-CentreVariables:
mto: Région
jour: DDMMYYYYnum_poste: identifiant stationlat: latitude in degrees minutes seconds (2 numbers for the degrees, 3 numbers for decimal minutes: 20° 23’ 31" = 20235)lon: longitude in degrees minutes seconds (2 numbers for the degrees, 3 numbers for decimal minutes: 20° 23’ 31" = 20235)pluie: daily cumulative rainfall (mm)tn: daily minimum temperature (C°)tx: daily maximum temperature (C°)tm: daily average temperature (for automatic stations) (C°)ffm: daily average wind speed measured at 10 meters high (meter/second)un: daily minimum relative humidity (%)ux: daily maximum relative humidity (%)um: daily average relative humidity (%)inst: insolation (probablement, cf email johanna 01/12/20)glot: rayonnement global (probablement, cf email johanna 01/12/20)1992-1999 + 2000 - 2004 + 2009 - 2014
| No | Variable | Stats / Values | Freqs (% of Valid) | Graph | Missing | ||||||||||||||||||||||||||||||||||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | jour [Date] | min : 1992-01-01 med : 2001-07-24 max : 2014-12-31 range : 22y 11m 30d | 6940 distinct values | 0 (0.0%) | |||||||||||||||||||||||||||||||||||||||||||||
| 2 | num_poste [character] | 1. 10057001 2. 10130001 3. 10228002 4. 10238001 5. 10323001 6. 10350001 7. 10360001 8. 1037001 9. 1089001 10. 11004001 [ 3909 others ] |
|
0 (0.0%) | |||||||||||||||||||||||||||||||||||||||||||||
| 3 | pluie [numeric] | Mean (sd) : 2.6 (6.7) min < med < max: 0 < 0 < 551.2 IQR (CV) : 2.1 (2.6) | 1976 distinct values | 144198 (1.0%) | |||||||||||||||||||||||||||||||||||||||||||||
| 4 | tn [numeric] | Mean (sd) : 9.3 (7.2) min < med < max: -29.5 < 9.4 < 34.4 IQR (CV) : 10 (0.8) | 606 distinct values | 6289600 (42.1%) | |||||||||||||||||||||||||||||||||||||||||||||
| 5 | tx [numeric] | Mean (sd) : 16.3 (8.2) min < med < max: -26 < 16.1 < 44.1 IQR (CV) : 11.8 (0.5) | 668 distinct values | 2607222 (17.4%) | |||||||||||||||||||||||||||||||||||||||||||||
| 6 | tm [numeric] | Mean (sd) : 7.5 (6.7) min < med < max: -31.2 < 7.8 < 31.8 IQR (CV) : 9.3 (0.9) | 604 distinct values | 4532810 (30.3%) | |||||||||||||||||||||||||||||||||||||||||||||
| 7 | ffm [numeric] | Mean (sd) : 3.2 (2.1) min < med < max: 0 < 2.7 < 37.3 IQR (CV) : 2.3 (0.7) | 301 distinct values | 11128517 (74.4%) | |||||||||||||||||||||||||||||||||||||||||||||
| 8 | un [numeric] | Mean (sd) : 71.7 (17.6) min < med < max: 0 < 75 < 100 IQR (CV) : 24 (0.2) | 101 distinct values | 9917351 (66.3%) | |||||||||||||||||||||||||||||||||||||||||||||
| 9 | ux [numeric] | Mean (sd) : 93.4 (8.1) min < med < max: 0 < 96 < 100 IQR (CV) : 7 (0.1) | 92 distinct values | 9931356 (66.4%) | |||||||||||||||||||||||||||||||||||||||||||||
| 10 | um [numeric] | Mean (sd) : 89.2 (11.8) min < med < max: 5 < 94 < 100 IQR (CV) : 14 (0.1) | 93 distinct values | 9982855 (66.8%) | |||||||||||||||||||||||||||||||||||||||||||||
| 11 | lon_dec [numeric] | Mean (sd) : 2.8 (2.7) min < med < max: -5.1 < 2.9 < 9.5 IQR (CV) : 4.1 (1) | 4750 distinct values | 0 (0.0%) | |||||||||||||||||||||||||||||||||||||||||||||
| 12 | lat_dec [numeric] | Mean (sd) : 46.2 (2) min < med < max: 41.4 < 46.1 < 51.1 IQR (CV) : 3.5 (0) | 4617 distinct values | 0 (0.0%) | |||||||||||||||||||||||||||||||||||||||||||||
| 13 | type [factor] | 1. 0 2. 1 3. 2 4. 3 5. 4 6. 5 |
|
72544 (0.5%) | |||||||||||||||||||||||||||||||||||||||||||||
| 14 | lieu [character] | 1. BOURG 2. AERODROME 3. VILLAGE 4. BG 5. GENDARMERIE 6. LE BOURG 7. LYCEE AGRICOLE 8. AEROPORT 9. VLGE 10. AEROD. [ 2982 others ] |
|
549685 (3.7%) | |||||||||||||||||||||||||||||||||||||||||||||
| 15 | alt [numeric] | Mean (sd) : 358.6 (396.6) min < med < max: 1 < 210 < 3845 IQR (CV) : 363 (1.1) | 965 distinct values | 72544 (0.5%) | |||||||||||||||||||||||||||||||||||||||||||||
| 16 | type_poste_actuel [character] | 1. 1 2. 2 3. 3 4. 4 5. 5 6. 6 7. NA |
|
0 (0.0%) |
## n % val%
## 0 287 5.2 5.3
## 1 679 12.4 12.5
## 2 1109 20.2 20.4
## 3 362 6.6 6.7
## 4 2967 54.0 54.7
## 5 22 0.4 0.4
## NA 71 1.3 NA
Limited to type 0, 1 and 2:
Limited to participants within this wondow but some are in the paris area and one is close to spain
Select stations within 20km radius of participants limited to those active the whole 5 years preceding the first lmp for each cohort (> 1800 days).
Ref period:
## # A tibble: 3 x 3
## clim_cohort end start
## <chr> <date> <date>
## 1 Eden 2002-09-07 1997-09-07
## 2 Pelagie 2001-12-28 1996-12-28
## 3 Sepages 2014-04-08 2009-04-08